揭晓新增GUI Agent能力！豆包1.5·视觉深度思考模型可完成多端复杂任务,北京商报

新增GUI Agent能力！豆包1.5·视觉深度思考模型可完成多端复杂任务

/ 2025-05-13 15:48:31

来源：

北京商报

作者：

手机查看

新增GUI Agent能力！豆包1.5·视觉深度思考模型可完成多端复杂任务　　此外，该模型新增GUI Agent能力。基于强大的GUI定位性能，可在PC端、手机端等不同环境中完成复杂交互任务。例如，可对新开发的APP功能进行自动化检测，目前该功能已经应用于字节跳动多款APP产品的开发测试中。　　同时，新增视频深度思考能力。模型学习了数万亿多模态标记数据，掌握广泛视觉知识，结合强化学习，使视觉推理能力大幅提升。例如，在复杂的图形推理题中，模型提出假设，进行推理检验，当发现和假设不一样时，还能进行不断反思，提出新的猜测，直到得出正确答案。　　在视频理解方面，支持动态帧率采样，视频时序定位能力显著增强，结合向量搜索，可精准定位视频中与文本描述相对应的片段。。

Perplexity AI 就140亿美元估值融资5亿美元进行后期谈判

洋河股份成立文化传媒公司

英伟达GB200机架出货向好大摩给予“增持”评级

英国首相斯塔默一处房产发生火灾

光大期货：5月13日农产品日报

。

责编：王小洁

审签：

责编：王小洁

审签：